Стартиращата компания за изкуствен интелект Anthropic е обвинена в „нечудно“ изчерпване на данни

Стартиращата компания за изкуствен интелект Anthropic е упрекната в нападателно привършване на данни от уеб страници, с цел да образова системите си, като евентуално нарушава изискванията на услугата на издателите в процеса, съгласно на засегнатите.

Разработчиците на AI разчитат на поглъщането на големи количества данни, извлечени от огромно многообразие от източници, с цел да основат огромни езикови модели, технологията зад чатботове като ChatGPT на OpenAI и противника на Anthropic, Claude.

Anthropic е учредена от група някогашни откриватели на OpenAI с обещанието да разработят „ виновни “ системи за изкуствен интелект.

Въпреки това, Мат Бари, основен изпълнителен шеф на Freelancer.com, упрекна основаната в Сан Франциско компания, че е „ най-агресивният скрейпър до момента “ на неговия портал за фрийлансъри, който има милиони ежедневни визити.

Други уеб издатели повториха опасенията на Barrie, че Anthropic гъмжи от уеб страниците им и пренебрегва инструкциите им да спрат да събират наличието им, с цел да образоват своите модели.

Freelancer.com получи 3,5 милиона визити от обвързван с Anthropic уеб „ робот “ в границите на четири часа, съгласно данни, споделени с Financial Times. Това прави Anthropic „ евентуално към пет пъти по-голям размер от номер две “ AI робот, сподели Бари.

Търсачките постоянно са правили доста привършване, само че това го няма цяло равнище с учащ генериращ AI
Мат Бари, основен изпълнителен шеф на Freelancer.com

Посещенията от неговия бот продължиха да се усилват даже откакто Freelancer.com се опита да откаже поръчките му за достъп, употребявайки общоприета мрежа протоколи за ориентиране на роботите, добави той. След това Бари взема решение да блокира напълно трафика от интернет адресите на Anthropic.

„ Трябваше да ги блокираме, тъй като не съблюдават разпоредбите на интернет “, сподели Бари. „ Това е жестоко привършване, [което] прави уеб страницата по-бавен за всички, работещи в него, и в последна сметка визира приходите ни. “

Anthropic сподели, че проверява случая и че почита настояванията на издателите и цели да не бъде „ натрапчиви или разрушителни “.

Извличането на обществено налични данни от мрежата нормално е законно. Но практиката е противоречива, може да наруши изискванията на услугата на уебсайтовете и може да бъде скъпо за хостовете на уеб сайтове.

Кайл Виенс, основен изпълнителен шеф на iFixit.com, сподели, че неговият уебсайт за електронни поправки е получил 1 милион визити от ботове на Anthropic в границите на 24 часа. „ Имаме доста аларми [за огромен трафик], хората се разсънват в 3 сутринта. Това задейства всяка тревога, която имаме “, сподели той.

Условията за обслужване на iFixit не разрешават потреблението на неговите данни за машинно образование, сподели Wiens. „ Първото ми известие до Anthropic е: в случай че употребявате това, с цел да упражнявате своя модел, това е нелегално. Второто ми е: това не е учтиво интернет държание. Обхождането е нещо на етикета. “

Уебсайтовете употребяват протокол, прочут като „ robots.txt “, с цел да се опитат да задържат роботите и други уеб роботи отвън елементи от своите уеб сайтове. Въпреки това, той разчита на непринудено съблюдаване.

„ Ние почитаме robots.txt и нашият робот почете този сигнал, когато iFixit го внедри “, сподели Anthropic. Компанията също по този начин сподели, че нейните роботи съблюдават „ технологии срещу заобикаляне “ като CAPTCHA и че „ нашето обхождане не би трябвало да бъде натрапчиво или разрушително. Ние се стремим към минимални разстройства, като обмисляме какъв брой бързо обхождаме едни и същи домейни. “

Извличането на данни не е нова процедура, само че набъбна трагично през последните две години вследствие на AI оръжията раса. Това наложи нови разноски на уебсайтовете.

„ ИИ роботите ни костваха забележителна сума пари в такси за честотна лента и ни накараха да прекараме доста време в справяне със злоупотреби “, написа Ерик Холшър, съосновател на уеб страницата за хостване на документи Прочетете Документи в обява в блог в четвъртък. „ ИИ роботите работят по метод, който не е оправдателен към уеб страниците, които обхождат, и това ще провокира противоположна реакция против ИИ роботите като цяло “, добави той.

Anthropic сътвори някои от най-напредналите чатботове в света — съперничещи на ChatGPT на OpenAI — които могат да дават отговор на набор от подкани на натурален език, като в същото време се нареждат като по-етичен артист от някои съперници. Обявената цел на Anthropic е „ виновното създаване и поддържане на модернизиран AI за дълготрайна изгода на човечеството “.

Докато водещи компании за изкуствен интелект се състезават да основават все по-способни и сръчни модели, те навлизат все по-дълбоко в неизползваните ъгли на мрежата, като си партнират с издатели или основават синтетични данни за образование.

OpenAI подписа редица покупко-продажби през последните месеци с издатели и снабдители на наличие, в това число Reddit, The Atlantic и The Financial Times. Anthropic не е оповестил обществено сходни партньорства.

„ Търсачките постоянно са правили доста скрапинг “, сподели Бари, „ само че се покачиха цяло равнище с образованието на генериращ AI. “

Мисията на iFixit „ е да даде информация надалеч ”, сподели Wiens, с цел да насърчи хората да ремонтират своите лични. „ Ние не се противопоставяме на това те да употребяват нашето наличие за образование на модели, ние просто желаеме да бъдем част от диалога. “

Той добави: „ Аз не съм кръстоносец по тази тематика, аз съм просто се пробвам да подкрепям уеб страница онлайн.

Източник: ft.com